AI资讯新闻榜单内容搜索-Search Sel

⽆需任何监督信号！自博弈机制让深度搜索Agent实现自我进化

来⾃阿⾥巴巴夸克、北京⼤学、中⼭⼤学的研究者提出了⼀种新的解决⽅案：搜索自博弈 Search Self-play（SSP）⸺⼀种⾯向深度搜索 Agent 的⾃我博弈训练范式。其核⼼思路是：让⼀个模型同时扮演两个⻆⾊⸺「出题者」和「解题者」，它们在对抗训练中共同进化，使训练难度随着模型能⼒动态提升，最终形成⼀个⽆需⼈⼯标注的动态博弈⾃我进化过程。

来自主题: AI技术研报

7262 点击 2025-11-16 10:36